央视春晚任素汐演唱的《枕着光的她》的现场伴奏视频中,首次使用了AI生成的视频。作者海辛和Simon阿文在文章中详细讲解了背后制作过程&用到开源技术的全面复盘,以及现阶段制作AI生成视频会遇到的问题。
文章转自公众号「全民熊猫计划」,Founder Park授权转载。
23 年年底,数字栩生的宋震老师邀请我和 @Simon阿文 ,加入春晚节目组一起制作了央视春晚任素汐演唱的《枕着光的她》中的 AI 视频,以下是 AI 视频完整段落。
舞者:王圣哲、高贾雪
在这个 AI 视频项目中,我们使用到了开源社区中最新的技术:ControlNet, AnimateDiff, LCM, IPAdapter.我们相信我们的实践经历对 AI 视频技术开源社区有正向的参考价值,所以决定将项目经验复盘分享给大家。项目本身的需求是 将一段真人双人舞用 AI 的风格转绘成陶瓷的舞蹈 ,基于此需求,我们在项目开始时,对工作流进行了如下设计:- 搭载在 ComfyUI 上,工作流高度自定义、省显存。
- 使用 ControlNet Lineart + OpenPose 模型,参考拍摄视频的线条及骨骼,生成新的 AI 动画。
- 使用 AnimateDiff 达到稳定不抖动的 AI 动画效果。
由于跑高清的长视频对算力有较高的要求,英伟达的何展老师借给了我们一块 48GB 显存的显卡,加上我们自己的 4090,在整个项目中起到了非常关键的作用。
挑战一
双人舞中角色稳定性问题
双人舞之所以会难做,是因为 AI 会将两个角色之间的特征进行混淆,所以经常会出现性别交换等问题。为了解决这个问题,我们尝试将单人先 roto 出来进行转绘,再进行双人合成。
但这个工作模式的问题很大,一是大量抠像需要工期太长;二是视频速度一旦上来,动态模糊后会带来大量抠像困难;三是合成后尤其肢体衔接处会不自然。我们最后还是回归双人直接转绘的方案,但是接入了 ControlNet tile 模型,让其参考原视频的角色细节特征,从而固定住角色特征。挑战二
瓷器材质的实现
在项目刚开始时,我们进行了大量的材质探索。在 SDXL 和 Civitai 开源模型和 lora 的加持下,这并不算什么难题。
项目组很快就敲定了白瓷风格,于是我们继续在 SDXL 中推进静帧测试,并迅速达到了大家都很满意的效果。但当我们把静帧参数套用到视频工作流时,发现生成的视频质量是这样的:我们发现,SDXL 结合上 AnimateDiff 后,画面会因为过于追求稳定而折损大量细节,且在当时(去年12月份)几乎无解。我们只能寄希望于生态更加完整的 SD1.5 ,但这也意味着我们失去了 SDXL 强大的生成能力……同样的 Prompt 在 SD1.5 里的效果是这样的:本来以为得训练 SD1.5 的瓷器 LoRA,但峰回路转地,我们发现这其实是一个 “关键词” 就可以解决的问题。然后我们开始在 SD1.5 上逐渐复刻出我们想要的瓷器材质。除了关键词以外,我们还发现了一个 prompting “神器”:IPAdapter,用一张参考图来引导 AI 生成指定材质效果。
有了新的工作流,我们顺利生成了第一版“瓷娃娃”质感的视频:每一组动态测试,在 4090 显卡下的渲染时间一般在 10 分钟以内。
挑战三
换装稳定性测试
节目的设计是双人舞三个阶段变装,包括结婚、婚后、老年三个阶段。利用 AI 来实现丝滑的变装是重要的需求。我们首先在 pr 里对齐了剪辑,在生成时通过 prompt travel 的方式(不同关键帧描述不同的内容)进行了实现。需要提到的经验是,我们发现 prompt travel 只对比较短的视频有用,当生成帧数大于 800 帧以后,AI 就会开始不遵循关键词。所以分段小批量的进行转绘是让画面更加稳定符合预期的重点。在攻克所有难题后,我们最终完成了这个作品,1200+ 帧左右在 Nvidia 4090 下一共渲染了 4-5 小时。四
结语
我们在整个项目的过程中成长了许多,熟悉了很多开源社区最新的技术,也探索了这些技术在具体项目中的可能性。同时也结识了很多开源社区的好朋友,特别感谢 Jerry Davos 毫无保留的工作流分享和技术指导!
当然,最终能达成满意效果的原因,不仅有赖于开源社区无私的共享,也源于王圣哲、高贾雪两位舞者本身卓越的舞蹈技术和表现力;春晚编导及节目组的精心设计:春晚副总导演大治老师、节目视效导演申子、美娇老师、春晚 AR 团队封毅老师、舞蹈指导谢长慧老师、数字栩生宋震老师;以及任素汐老师对《枕着她的光》这首曲目的出色演绎。《枕着她的光》是我们对于 AI 可能性的一个答卷,也是人与 AI 合作的一种可能,我们期待着与更多优秀的艺术家一起在 2024 年探索这种可能。
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。Product Hunt 2023 年度产品榜:GPT-4 夺冠、获奖 AI 产品全介绍
Meshy胡渊鸣:AI生成3D模型发展到哪了?
去美国、去日本!2024中国AI公司出海,要从被动转为主动
Perplexity CEO 专访:拥有十万用户的套壳产品比拥有自有模型却没有用户更有意义
火遍硅谷的Arc浏览器,刚刚发布App和AI功能,体验碾压Chrome!
Kyligence 韩卿:创业 7 年复盘,中美企业服务市场差异浅析
Cubox创始人的产品思考:不要把「总结全文」当做AI阅读产品的唯一亮点